Vad är funktionen substring() i R?
R:s funktion substring() är användbar för att förbereda data för analys. Den kan till exempel användas för att konvertera textdata till bättre strukturerade format.
Vad används funktionen R:s substring() till?
R:s substring() är en inbyggd funktion som väljer ut en del av en befintlig sträng. Den möjliggör en exakt definition av start- och slutindex så att du kan isolera den del av strängen som du behöver. Funktionen har en mängd olika användningsområden, från datarensning till att extrahera specifik information från ostrukturerade textdata. Du kan till exempel använda den för att extrahera postnummer från adresser eller datum från tidsstämplar.
substring() är flexibel i situationer som kräver finjusterad kontroll av positionen och längden på valda delsträngar. Metoden används ofta i dataanalyser och för att förbereda textdata för vidare bearbetning.
Vad är syntaxen för funktionen substring() i R?
substring() returnerar den del av strängen som har extraherats och tar följande parametrar:
substring(x, first, last)Rx: Strängen som delsträngen ska extraheras frånfirst: Startindex (det första tecknet) för den delsträng du vill extraheralast: Slutindex (det sista tecknet) för den delsträng du vill extrahera
Låt oss titta på ett exempel.
original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: dataRI det här exemplet väljer vi en delsträng från index 1 till index 4 i strängen "data analysis" och sparar den i variabeln result. Utmatningen blir "data".
Vilka är några praktiska användningsområden för R:s substring()?
När du bearbetar datamängder måste du ofta välja, manipulera eller extrahera vissa delar av strängar. Du kan använda funktionen substring() i R för att göra detta på olika sätt.
Extrahera tecken med substring()
Du kan spara index i variabler och sedan ange dem som argument i substring().
# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: ScienceRDet här exemplet visar vad substring() gör. En delsträng från position 6 till 12 valdes ut från den ursprungliga strängen "Data Science". Vi definierade variablerna start_index som startpunkt och end_index som slutpunkt. Utmatningen visar den extraherade delsträngen, i det här fallet "Science". Slutindexets värde 12 är inkluderande, vilket innebär att tecknet från position 12 ingår i delsträngen.
Manipulera strängar med funktionen substring() i R
Först skapar vi en dataram df som innehåller ID-nummer, ålder och yrke. Sedan använder vi funktionen substring() för att infoga ett mellanslag på andra positionen i varje sträng i ID-kolumnen.
# Creating a sample data frame
df <- data.frame(
ID = c("01235", "02345", "04531"),
Age = c(25, 30, 22),
Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)RI det här exemplet extraherar substring() den första siffran i varje tal (substring(df$ID, 1, 1) och resten av talsekvensen från och med den andra positionen (substring(df$ID, 2)). Därefter infogas ett mellanslag mellan dessa två delsträngar med hjälp av R paste. Resultatet visas i ID-kolumnen i dataramverket.
Resultatet ser ut som följer:
Modified Data Frame:
ID Age Occupation
1 0 1235 25 Engineer
2 0 2345 30 Doctor
3 0 4531 22 TeacherR
